The xView2 competition and xBD dataset spurred significant advancements in overhead building damage detection, but the competition's pixel level scoring can lead to reduced solution performance in areas with tight clusters of buildings or uninformative context. We seek to advance automatic building damage assessment for disaster relief by proposing an auxiliary challenge to the original xView2 competition. This new challenge involves a new dataset and metrics indicating solution performance when damage is more local and limited than in xBD. Our challenge measures a network's ability to identify individual buildings and their damage level without excessive reliance on the buildings' surroundings. Methods that succeed on this challenge will provide more fine-grained, precise damage information than original xView2 solutions. The best-performing xView2 networks' performances dropped noticeably in our new limited/local damage detection task. The common causes of failure observed are that (1) building objects and their classifications are not separated well, and (2) when they are, the classification is strongly biased by surrounding buildings and other damage context. Thus, we release our augmented version of the dataset with additional object-level scoring metrics https://gitlab.kitware.com/dennis.melamed/xfbd to test independence and separability of building objects, alongside the pixel-level performance metrics of the original competition. We also experiment with new baseline models which improve independence and separability of building damage predictions. Our results indicate that building damage detection is not a fully-solved problem, and we invite others to use and build on our dataset augmentations and metrics.
translated by 谷歌翻译
Deep Neural Networks (DNNs) are vulnerable to the black-box adversarial attack that is highly transferable. This threat comes from the distribution gap between adversarial and clean samples in feature space of the target DNNs. In this paper, we use Deep Generative Networks (DGNs) with a novel training mechanism to eliminate the distribution gap. The trained DGNs align the distribution of adversarial samples with clean ones for the target DNNs by translating pixel values. Different from previous work, we propose a more effective pixel level training constraint to make this achievable, thus enhancing robustness on adversarial samples. Further, a class-aware feature-level constraint is formulated for integrated distribution alignment. Our approach is general and applicable to multiple tasks, including image classification, semantic segmentation, and object detection. We conduct extensive experiments on different datasets. Our strategy demonstrates its unique effectiveness and generality against black-box attacks.
translated by 谷歌翻译
The findable, accessible, interoperable, and reusable (FAIR) data principles have provided a framework for examining, evaluating, and improving how we share data with the aim of facilitating scientific discovery. Efforts have been made to generalize these principles to research software and other digital products. Artificial intelligence (AI) models -- algorithms that have been trained on data rather than explicitly programmed -- are an important target for this because of the ever-increasing pace with which AI is transforming scientific and engineering domains. In this paper, we propose a practical definition of FAIR principles for AI models and create a FAIR AI project template that promotes adherence to these principles. We demonstrate how to implement these principles using a concrete example from experimental high energy physics: a graph neural network for identifying Higgs bosons decaying to bottom quarks. We study the robustness of these FAIR AI models and their portability across hardware architectures and software frameworks, and report new insights on the interpretability of AI predictions by studying the interplay between FAIR datasets and AI models. Enabled by publishing FAIR AI models, these studies pave the way toward reliable and automated AI-driven scientific discovery.
translated by 谷歌翻译
深度神经网络的图像分类容易受到对抗性扰动的影响。图像分类可以通过在输入图像中添加人造小且不可察觉的扰动来轻松愚弄。作为最有效的防御策略之一,提出了对抗性训练,以解决分类模型的脆弱性,其中创建了对抗性示例并在培训期间注入培训数据中。在过去的几年中,对分类模型的攻击和防御进行了深入研究。语义细分作为分类的扩展,最近也受到了极大的关注。最近的工作表明,需要大量的攻击迭代来创建有效的对抗性示例来欺骗分割模型。该观察结果既可以使鲁棒性评估和对分割模型的对抗性培训具有挑战性。在这项工作中,我们提出了一种称为SEGPGD的有效有效的分割攻击方法。此外,我们提供了收敛分析,以表明在相同数量的攻击迭代下,提出的SEGPGD可以创建比PGD更有效的对抗示例。此外,我们建议将SEGPGD应用于分割对抗训练的基础攻击方法。由于SEGPGD可以创建更有效的对抗性示例,因此使用SEGPGD的对抗训练可以提高分割模型的鲁棒性。我们的建议还通过对流行分割模型体系结构和标准分段数据集进行了验证。
translated by 谷歌翻译
现有的自动数据增强(DA)方法要么忽略根据培训期间目标模型的状态根据目标模型的状态忽略更新DA的参数,要么采用不够有效的更新策略。在这项工作中,我们设计了一种新型的数据增强策略,称为“通用自适应数据增强”(UADA)。与现有方法不同,UADA会根据目标模型在训练过程中根据目标模型的梯度信息自适应地更新DA的参数:给定预定义的DA操作集,我们随机确定培训期间每个数据批次的DA操作的类型和大小,并自适应地更新DA的参数沿损失的梯度方向与DA参数有关。这样,UADA可以增加目标网络的训练损失,而目标网络将从更艰难的样本中学习以改善概括的功能。此外,UADA非常通用,可以在许多任务中使用,例如图像分类,语义分割和对象检测。在CIFAR-10,CIFAR-100,ImageNet,Tiny-Imagenet,CityScapes和VOC07+12上进行了各种模型的广泛实验,以证明我们提出的适应性增强带来了重大的性能改善。
translated by 谷歌翻译
图形离群值检测是一项具有许多应用程序的新兴但至关重要的机器学习任务。尽管近年来算法扩散,但缺乏标准和统一的绩效评估设置限制了它们在现实世界应用中的进步和使用。为了利用差距,我们(据我们所知)(据我们所知)第一个全面的无监督节点离群值检测基准为unod,并带有以下亮点:(1)评估骨架从经典矩阵分解到最新图形神经的骨架的14个方法网络; (2)在现实世界数据集上使用不同类型的注射异常值和自然异常值对方法性能进行基准测试; (3)通过在不同尺度的合成图上使用运行时和GPU存储器使用算法的效率和可扩展性。基于广泛的实验结果的分析,我们讨论了当前渠道方法的利弊,并指出了多个关键和有希望的未来研究方向。
translated by 谷歌翻译
现代神经影像学技术,例如扩散张量成像(DTI)和功能性磁共振成像(fMRI),使我们能够将人脑建模为脑网络或连接组。捕获大脑网络的结构信息和分层模式对于理解大脑功能和疾病状态至关重要。最近,图形神经网络(GNN)的有前途的网络表示能力促使许多基于GNN的方法用于脑网络分析。具体而言,这些方法应用功能聚合和全局池来将大脑网络实例转换为有意义的低维表示,用于下游大脑网络分析任务。但是,现有的基于GNN的方法通常忽略了不同受试者的大脑网络可能需要各种聚合迭代,并将GNN与固定数量的层一起学习所有大脑网络。因此,如何完全释放GNN促进大脑网络分析的潜力仍然是不平凡的。为了解决这个问题,我们提出了一个新颖的大脑网络表示框架,即BN-GNN,该框架搜索每个大脑网络的最佳GNN体系结构。具体而言,BN-GNN使用深度加固学习(DRL)来训练元派利,以自动确定给定脑网络所需的最佳特征聚合数(反映在GNN层的数量中)。在八个现实世界大脑网络数据集上进行的广泛实验表明,我们提出的BN-GNN提高了传统GNN在不同大脑网络分析任务上的性能。
translated by 谷歌翻译
引用图像分割是一种基本愿景 - 语言任务,旨在分割由图像中的自然语言表达式引用的对象。这项任务背后的一个关键挑战是利用引用表达式来突出显示图像中的相关位置。解决此问题的范例是利用强大的视觉语言(“跨模型”)解码器到从视觉编码器和语言编码器独立提取的保险丝特征。最近的方法通过利用变换器作为跨模型解码器,并将变换器在许多其他视觉语言任务中的压倒性成功的同时进行了显着的进步。在这项工作中采用不同的方法,我们表明,通过在视觉变压器编码器网络的中间层中的语言和视觉特征的早期融合,可以实现更好的跨模型对准。通过在视觉特征编码阶段进行跨模型特征融合,我们可以利用变压器编码器的良好相关建模功率,以便挖掘有用的多模态上下文。通过这种方式,用轻型掩模预测器容易地收获精确的分段结果。没有钟声和口哨,我们的方法超越了在Refcoco,Refcoco +和G-Ref上的先前最先进的方法。
translated by 谷歌翻译
远程光学电瓶描绘(RPPG),其目的在没有任何接触的情况下从面部视频测量心脏活动和生理信号,在许多应用中具有很大的潜力(例如,远程医疗保健和情感计算)。最近的深度学习方法专注于利用具有有限时空接收领域的卷积神经网络进行微妙的RPPG线索,这忽略了RPPG建模的远程时空感知和相互作用。在本文中,我们提出了Physformer,基于端到端的视频变换器的架构,以自适应地聚合用于RPPG表示增强的本地和全局时空特征。作为Physformer中的关键模块,时间差异变压器首先提高了具有时间差异引导的全局关注的准周期性RPPG特征,然后优化了局部时空表示免于干扰。此外,我们还提出了标签分配学习和课程学习激发了频域中的动态约束,这为Phyformer和缓解过度装备提供了精心制造的监控。在四个基准数据集上执行综合实验,以显示我们在内部和交叉数据集测试中的卓越性能。一个突出显示的是,与大多数变压器网络不同于大规模数据集预先预订,所提出的Physformer可以从RPPG数据集上从头开始培训,这使得它作为RPPG社区的新型变压器基线。该代码将在https://github.com/zitongyu/physformer释放。
translated by 谷歌翻译
基于深度神经网络的图像分类可以被小和准毫不察觉的扰动的对抗例子误导。此外,在一个分类模型上创建的对抗性示例也可以欺骗另一个不同的模型。逆势实例的可转移性最近吸引了日益增长的利益,因为它使黑盒攻击对分类模型可行。作为分类的延伸,语义细分也有很大的关注其对抗的鲁棒性。然而,尚未系统地研究了对抗模型对分段模型的转移性。在这项工作中,我们深入研究了这个话题。首先,我们探讨了对分类和分割模型的对抗实例的过度现象。与对分类模型的观察结果相比,通过对源模型的过度限制的分类模型进行了限制,我们发现分段上的对抗示例并不总是过度装备源模型。即使呈现过度拟合,逆势实例的可转移也是有限的。我们将限制归因于分段模型的架构性状,即多尺度对象识别。然后,我们提出了一种简单有效的方法,称为动态缩放,克服限制。通过我们的方法实现的高可转移性表明,与先前作品中的观察结果相比,对分割模型的对抗示例可以容易地传递到其他分段模型。我们的分析和提案得到了广泛的实验支持。
translated by 谷歌翻译